灵活性|金子_湖仓一体数据平台架构

作者：请叫我浪漫先生_858 | 来源：互联网 | 2023-07-23 17:59

篇首语：本文由编程笔记#小编为大家整理，主要介绍了湖仓一体数据平台架构相关的知识，希望对你有一定的参考价值。随着数字化技术的更新迭代，数据库、数据仓库、数据

篇首语：本文由编程笔记#小编为大家整理，主要介绍了湖仓一体数据平台架构相关的知识，希望对你有一定的参考价值。

随着数字化技术的更新迭代&＃xff0c;数据库、数据仓库、数据湖等各种概念层出不穷&＃xff0c;MPP数据库、Hadoop、对象存储、Hudi等各种数据技术不断涌现&＃xff0c;湖仓一体概念逐步被人们所关注&＃xff0c;在国际知名机构Gartner发布的《Hype Cycle for Data Management 2021》中&＃xff0c;湖仓一体被正式纳入到技术成熟度曲线中。最近有很多朋友都在讲湖仓一体架构&＃xff0c;那究竟什么是湖仓一体&＃xff1f;本期金子就和大家聊聊湖仓一体的数据平台架构&＃xff01;

01 数据湖与数据仓库

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据存储系统&＃xff0c;它主要存储的是结构化数据&＃xff0c;历史数据通过抽取、转换、整合以及清理&＃xff0c;并导入到目标表中&＃xff0c;主要用于业务决策分析。

随着当前大量信息化发展和电子设备产品普及&＃xff0c;产生大量的照片、视频、文档等非结构化数据&＃xff0c;人们也想通过大数据技术找到这些数据的关系&＃xff0c;所以设计了一个比数据仓库还要大的系统&＃xff0c;可以把非结构化和结构化数据共同存储和做一些处理&＃xff0c;这个系统叫做数据湖。

数据湖是一个以原始格式存储数据的存储库或系统&＃xff0c;它按原样存储数据&＃xff0c;而无需事先对数据进行结构化处理&＃xff0c;可以存储结构化数据&＃xff08;如关系型数据库中的表&＃xff09;&＃xff0c;半结构化数据&＃xff08;如CSV、日志、XML、JSON&＃xff09;&＃xff0c;非结构化数据&＃xff08;如电子邮件、文档、PDF&＃xff09;和二进制数据&＃xff08;如图片、音频、视频&＃xff09;&＃xff0c;以供机器学习、深度学习、统计分析等多种形式数据分析应用。

数据湖开放的数据存储结构给数据入湖带来了更大的灵活性&＃xff0c;各种结构化、半结构化、非结构化的原始数据可以直接入湖。另外&＃xff0c;开放存储给上层的计算引擎也带来了更多的灵活度&＃xff0c;各种计算引擎需要遵循相当宽松的兼容性约定即可根据自己针对的场景随意读写数据湖中的数据。而数据仓库则更关注数据使用效率、数据的安全性和数据治理能力&＃xff0c;这对企业的长远的成长性发展至关重要。

02 湖仓一体概念

湖仓一体是一种新型开放式架构&＃xff0c;将数据湖和数据仓库的优势充分结合&＃xff0c;它构建在数据湖低成本的数据存储架构之上&＃xff0c;又继承了数据仓库的数据处理和管理功能。湖仓一体打通数据湖和数据仓库两套体系&＃xff0c;让数据和计算在湖和仓之间自由流动&＃xff0c;更能发挥出数据湖的灵活性&＃xff0c;以及数据数据仓库的成长性。

但是湖仓一体≠数据湖&＃43;数据仓库&＃xff0c;湖仓一体不等同于数据湖和数据仓简单打通&＃xff0c;湖仓一体的构建需要解决以下三个关键问题&＃xff1a;

湖和仓的数据/元数据在不需要用户人工干预的情况下&＃xff0c;可以无缝打通、自由顺畅地流动&＃xff1b;
系统根据特定的规则自动地将数据在湖仓之间进行缓存和移动&＃xff0c;根据规则自动决定哪些数据放在数仓&＃xff0c;哪些保留在数据湖&＃xff0c;进而形成一体化&＃xff1b;
湖和仓有统一的开发体验&＃xff0c;存储在不同系统的数据&＃xff0c;可以通过一个统一的开发/管理平台操作。

03 湖仓一体平台架构

基于开源生态的主流湖仓一体解决方案采用存储计算分离的架构&＃xff0c;对象存储&＃xff08;OSS/S3/MinIO等&＃xff09;和Hadoop HDFS提供支持Apache hudi、Apache Iceberg等数据湖的数据存储机制&＃xff0c;并通过Flink、Spark、Trino&＃xff08;原Presto&＃xff09;三个不同引擎进行相关数据处理和交互式查询&＃xff0c;对外提供不同类型的服务。湖仓一体具体平台架构如下&＃xff1a;

数据存储

数据存储支持OSS/S3/MinIO等对象存储和Hadoop HDFS&＃xff0c;对象存储存储非结构化、原始数据、冷数据&＃xff0c;提供高性价比&＃xff0c;HDFS存储结构化数据&＃xff0c;提供高性能存储。

使用Hudi/Iceberg作为数据存储中间层&＃xff0c;能够基于HDFS、对象存储等底层存储&＃xff0c;支持ACID语义、实现快速更新能力。

通过Alluxio进行数据缓存&＃xff0c;加速Spark、Flink、Trino&＃xff08;原Presto&＃xff09;等计算引擎对数据湖的读写。

计算引擎

计算支持多引擎&＃xff0c;Spark、Trino、Flink等均实现serverless化&＃xff0c;跑在Kubernetes中&＃xff0c;即开即用&＃xff0c;满足不同查询场景&＃xff0c;并通过Yarn进行统一资源访问/调度。

智能元数据

基于特定的规则&＃xff0c;智能识别结构化、半结构化文件的元数据&＃xff0c;构建数据目录&＃xff0c;并转化成内置存储中的一个Hive表&＃xff0c;统一进行元数据管理&＃xff0c;提供类HiveMeta API针对不同计算引擎访问底层数据。

统一编程模型

Apache Beam作为统一的编程模型&＃xff0c;提供统一的IDE&＃xff0c;统一流和批&＃xff0c;抽象出统一的API接口&＃xff0c;并且生成的数据处理任务应该能够在各个计算引擎上执行&＃xff0c;使得用户可以自由切换数据处理任务的执行引擎与执行环境。

金子说数据

聊聊数据技术&＃xff0c;谈谈数据业务

8篇原创内容

公众号

推荐阅读

text
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
text
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
export
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
text
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
text
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
text
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
js
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
js
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
request
Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析

Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析 ... [详细]

蜡笔小新 2024-11-08 11:32:58
hash
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
hash
Zookeeper在Hadoop生态系统中的关键作用与应用分析

Zookeeper作为Apache Hadoop生态系统中的一个重要组件，主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能，有效提升了分布式系统的可靠性和可维护性。此外，Zookeeper还支持配置管理和临时节点管理，进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]

蜡笔小新 2024-11-04 15:48:51
hash
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
main
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
text
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
default
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06

请叫我浪漫先生_858

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章